其他
百度百舸 · AI 异构计算平台,加速自动驾驶模型迭代
第一个特点是资源解耦。因此当我们申请 CPU 和 GPU 资源的时候,可以采用任意的配比,这样就打破了我们单机层面 CPU 和 GPU 资源的硬配比的一个限制。
第二个特点是动态挂载。就是让间歇式的任务在需要的时候去挂载,在不需要的时候就释放。这样也极大的降低了这些任务的资源消耗,同时也可以让调度系统去分配更多的任务,让我们底层的 GPU 的资源效率得到了充分的发挥。
第三个特点是动态隔离。我们在后端实现了根据任务的本身的需求动态的去调整算力和显存的隔离能力与资源的分配。
第四个特点是透明容错。由于使用了独立的资源池,我们还实现了透明容错的能力。这样当后端的 GPU 发现故障的时候,我们会将 GPU 上的任务透明化,让业务无感的迁移到一个新的 GPU 上继续运行,让整个 GPU 的稳定性也得到了极大的提升。